Motifs récursifs : extraction ascendante hiérarchique d'ensembles d'items ou d'évènements pour le résumé de données transactionnelles ou séquentielles
نویسنده
چکیده
Résumé. Nous proposons une méthode originale pour extraire un résumé compact, représentatif et intelligible des motifs fréquents dans des données transactionnelles ou séquentielles. Notre approche consiste à extraire un nouveau type de motifs que nous appelons motifs récursifs, i.e. des motifs de motifs, à l’aide d’un algorithme hiérarchique agglomératif nommé RepaMiner. Nous générons non pas un simple ensemble de motifs mais une véritable structure dérivée de dendrogrammes, le RPgraph.
منابع مشابه
Sélection de modèles par des méthodes à noyaux pour la classification de données séquentielles
Ce travail concerne le développement de méthodes de classification discriminantes pour des données séquentielles. Quelques techniques ont été proposées pour étendre aux séquences les méthodes discriminantes, comme les machines à vecteurs supports, par nature plus adaptées aux données en dimension fixe. Elles permettent de classifier des séquences complètes mais pas de réaliser la segmentation, ...
متن کاملCHIC : traitement de données avec l'analyse implicative
Résumé. Cet article a pour but de montrer les possibilités offertes par le logiciel CHIC (Classification Hiérarchique Implicative et Cohésitive) pour effectuer certaines analyses de données. Il est basé sur la théorie de l’Analyse Statistique Implicative ou A.S.I. développée par Régis Gras et ses collaborateurs. Le principe premier de l’A.S.I. repose sur la problématique d’une mesure des règles...
متن کاملTraMineR: une librairie R pour l'analyse de données séquentielles
TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...
متن کاملCaractérisation et extraction de biclusters de valeurs similaires avec l'analyse de concepts triadiques
Résumé. Le biclustering de données numériques est devenu depuis le début des années 2000 une tâche importante d’analyse de données, particulièrement pour l’étude de données biologiques d’expression de gènes. Un bicluster représente une association forte entre un ensemble d’objets et un ensemble d’attributs dans une table de données numériques. Les biclusters de valeurs similaires peuvent être v...
متن کاملUn cadre théorique pour la gestion de grandes bases de motifs
Résumé. Les algorithmes de fouille de données sont maintenant capables de traiter de grands volumes de données mais les utilisateurs sont souvent submergés par la quantité de motifs générés. En outre, dans certains cas, que ce soit pour des raisons de confidentialité ou de coûts, les utilisateurs peuvent ne pas avoir accès directement aux données et ne disposer que des motifs. Les utilisateurs ...
متن کامل